開始

首先要有一隻 google 帳號，用於 google colaboratory，沒有的話記得要先去註冊。

按新增 -> 更多 -> Google Colaboratory

如果沒有看到 Google Colaboratory 的話，要先選連結更多應用程式並且新增 Colaboratory

接下來進到 Colaboratory 按最上面那排的執行階段 -> 變更執行階段類型

選 T4 GPU

正確的話右上角會顯示 T4

接下來安裝 Whisper AI

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

好了之後就按左邊的執行按鈕

裝完之後就會看到一個綠色勾勾了

接下來就可以上船錄音擋了，這邊建議是上傳 mp3，如果不是 mp3 的話可以先去線上轉檔

之後會跳出警告說上傳的檔案會在本次執行階段結束之後刪除，按確定就好

接下來新增一行程式碼並打上以下指令

!whisper "你的檔案名稱" --model medium

這邊解釋一下參數

--model medium: 選擇模型，Whisper AI 有提供其他的模型，包含 tiny, base, small, medium 還有 large，每種模型的執行時間也都各自不同，這邊選的是 medium 辨識能力跟輸出時間都還不錯的模型

--language: 如果你想要指定語言的話可以使用這個參數，不使用的話則會自動偵測語言

打好之後按執行，就會輸出結果了

就是這麼簡單，希望能幫到各位!

使用 Google Colaboratory + Whisper AI 免費將錄音檔內容轉換成文字